深入GPU硬件架构及运行机制

2023-05-27 16:09| 来源: 网络整理| 查看: 265

目录一、导言1.1 为何要了解GPU？1.2 内容要点1.3 带着问题阅读二、GPU概述2.1 GPU是什么？2.2 GPU历史2.2.1 NV GPU发展史2.2.2 NV GPU架构发展史2.3 GPU的功能三、GPU物理架构3.1 GPU宏观物理结构3.2 GPU微观物理结构3.2.1 NVidia Tesla架构3.2.2 NVidia Fermi架构3.2.3 NVidia Maxwell架构3.2.4 NVidia Kepler架构3.2.5 NVidia Turing架构3.3 GPU架构的共性四、GPU运行机制4.1 GPU渲染总览4.2 GPU逻辑管线4.3 GPU技术要点4.3.1 SIMD和SIMT4.3.2 co-issue4.3.3 if - else语句4.3.4 Early-Z4.3.5 统一着色器架构（Unified shader Architecture）4.3.6 像素块（Pixel Quad）4.4 GPU资源机制4.4.1 内存架构4.4.2 GPU Context和延迟4.4.3 CPU-GPU异构系统4.4.4 GPU资源管理模型4.4.5 CPU-GPU数据流4.4.6 显像机制4.5 Shader运行机制4.6 利用扩展例证五、总结5.1 CPU vs GPU5.2 渲染优化建议5.3 GPU的未来5.4 结语特别说明参考文献

一、导言

对于大多数图形渲染开发者，GPU是既熟悉又陌生的部件，熟悉的是每天都需要跟它打交道，陌生的是GPU就如一个黑盒，不知道其内部硬件架构，更无从谈及其运行机制。

本文以NVIDIA作为主线，将试图全面且深入地剖析GPU的硬件架构及运行机制，主要涉及PC桌面级的GPU，不会覆盖移动端、专业计算、图形工作站级别的GPU。

若要通读本文，要求读者有一定图形学的基础，了解GPU渲染管线，最好写过HLSL、GLSL等shader代码。

1.1 为何要了解GPU？

了解GPU硬件架构和理解运行机制，笔者认为好处多多，总结出来有：

理解GPU其物理结构和运行机制，GPU由黑盒变白盒。更易找出渲染瓶颈，写出高效率shader代码。紧跟时代潮流，了解最前沿渲染技术！技多不压身！ 1.2 内容要点

本文的内容要点提炼如下：

GPU简介、历史、特性。 GPU硬件架构。 GPU和CPU的协调调度机制。 GPU缓存结构。 GPU渲染管线。 GPU运行机制。 GPU优化技巧。 1.3 带着问题阅读

适当带着问题去阅读技术文章，通常能加深理解和记忆，阅读本文可带着以下问题：

1、GPU是如何与CPU协调工作的？

2、GPU也有缓存机制吗？有几层？它们的速度差异多少？

3、GPU的渲染流程有哪些阶段？它们的功能分别是什么？

4、Early-Z技术是什么？发生在哪个阶段？这个阶段还会发生什么？会产生什么问题？如何解决？

5、SIMD和SIMT是什么？它们的好处是什么？co-issue呢？

6、GPU是并行处理的么？若是，硬件层是如何设计和实现的？

7、GPC、TPC、SM是什么？Warp又是什么？它们和Core、Thread之间的关系如何？

8、顶点着色器（VS）和像素着色器（PS）可以是同一处理单元吗？为什么？

9、像素着色器（PS）的最小处理单位是1像素吗？为什么？会带来什么影响？

10、Shader中的if、for等语句会降低渲染效率吗？为什么？

11、如下图，渲染相同面积的图形，三角形数量少（左）的还是数量多（右）的效率更快？为什么？

12、GPU Context是什么？有什么作用？

13、造成渲染瓶颈的问题很可能有哪些？该如何避免或优化它们？

如果阅读完本文，能够非常清晰地回答以上所有问题，那么，恭喜你掌握到本文的精髓了！

二、GPU概述 2.1 GPU是什么？

GPU全称是Graphics Processing Unit，图形处理单元。它的功能最初与名字一致，是专门用于绘制图像和处理图元数据的特定芯片，后来渐渐加入了其它很多功能。

NVIDIA GPU芯片实物图。

我们日常讨论GPU和显卡时，经常混为一谈，严格来说是有所区别的。GPU是显卡（Video card、Display card、Graphics card）最核心的部件，但除了GPU，显卡还有扇热器、通讯元件、与主板和显示器连接的各类插槽。

对于PC桌面，生产GPU的厂商主要有两家：

NVIDIA：英伟达，是当今首屈一指的图形渲染技术的引领者和GPU生产商佼佼者。NVIDIA的产品俗称N卡，代表产品有GeForce系列、GTX系列、RTX系列等。

AMD：既是CPU生产商，也是GPU生产商，它家的显卡俗称A卡。代表产品有Radeon系列。

当然，NVIDIA和AMD也都生产移动端、图形工作站类型的GPU。此外，生产移动端显卡的厂商还有ARM、Imagination Technology、高通等公司。

2.2 GPU历史

GPU自从上世纪90年代出现雏形以来，经过20多年的发展，已经发展成不仅仅是渲染图形这么简单，还包含了数学计算、物理模拟、AI运算等功能。

2.2.1 NV GPU发展史

以下是GPU发展节点表：

1995 – NV1

NV1的渲染画面及其特性。

1997 – Riva 128 (NV3), DX3

1998 – Riva TNT (NV4), DX5

32位颜色, 24位Z缓存, 8位模板缓存双纹理, 双线性过滤每时钟2像素 (2 ppc)

1999 - GeForce 256（NV10）

固定管线，支持DirectX 7.0 硬件T&L（Transform & lighting，坐标变换和光照）立方体环境图（Cubemaps） DOT3 – bump mapping 2倍各向异性过滤三线性过滤 DXT纹理压缩 4ppc 引入“GPU”术语

NV10的渲染画面及其特性。

2001 - GeForce 3

DirectX 8.0 Shader Model 1.0 可编程渲染管线顶点着色器像素着色器 3D纹理硬件阴影图 8倍各向异性过滤多采样抗锯齿（MSAA） 4 ppc

NV20的渲染画面及其特性。

2003 - GeForce FX系列（NV3x）

DirectX 9.0 Shader Model 2.0 256顶点操作指令 32纹理 + 64算术像素操作指令 Shader Model 2.0a 256顶点操作指令 512像素操作指令着色语言 HLSL CGSL GLSL

NV30的渲染画面及其特性。

2004 - GeForce 6系列 (NV4x)

DirectX 9.0c

Shader Model 3.0

动态流控制

分支、循环、声明等

顶点纹理读取

高动态范围（HDR）

64位渲染纹理（Render Target） FP16*4 纹理过滤和混合

NV40的渲染画面及其特性。

2006 - GeForce 8系列 (G8x)

DirectX 10.0

Shader Model 4.0

几何着色器（Geometry Shaders）没有上限位（No caps bits）统一的着色器（Unified Shaders）

Vista系统全新驱动

基于GPU计算的CUDA问世

GPU计算能力以GFLOPS计量。

NV G80的渲染画面及其特性。

2010 - GeForce 405（GF119）

DirectX 11.0

曲面细分（Tessellation）外壳着色器（Hull Shader）镶嵌单元（tessellator）域着色器（Domain Shader）计算着色器（Compute Shader）支持Stream Output

DirectX 11的渲染管线。

多线程支持改进的纹理压缩

Shader Model 5.0

更多指令、存储单元、寄存器面向对象着色语言曲面细分计算着色器

2014 - GeForceGT 710（GK208）

DirectX 12.0 轻量化驱动层硬件级多线程渲染支持更完善的硬件资源管理

2016 - GeForceGTX 1060 6GB

首次支持RTX和DXR技术，即支持光线追踪引入RT Core（光线追踪核心）

支持RTX光线追踪的显卡列表。

2018 - TITAN RTX（TU102）

DirectX 12.1，OpenGL 4.5

6GPC，36TPC，72SM，72RT Core，...

8K分辨率，1770MHz主频，24G显存，384位带宽

从上面可以看出来，GPU硬件是伴随着图形API标准、游戏一起发展的，并且它们形成了相互相成、相互促进的良性关系。

2.2.2 NV GPU架构发展史

众所周知，CPU的发展符合摩尔定律：每18个月速度翻倍。

处理芯片晶体管数量符合摩尔定律，图右是摩尔本人，Intel的创始人

而NVIDIA创始人黄仁勋在很多年前曾信誓旦旦地说，GPU的速度和功能要超越摩尔定律，每6个月就翻一倍。NV的GPU发展史证明，他确实做到了！GPU的提速幅率远超CPU：

NVIDIA GPU架构历经多次变革，从起初的Tesla发展到最新的Turing架构，发展史可分为以下时间节点：

2008 - Tesla

Tesla最初是给计算处理单元使用的，应用于早期的CUDA系列显卡芯片中，并不是真正意义上的普通图形处理芯片。

2010 - Fermi

Fermi是第一个完整的GPU计算架构。首款可支持与共享存储结合纯cache层次的GPU架构，支持ECC的GPU架构。

2012 - Kepler

Kepler相较于Fermi更快，效率更高，性能更好。

2014 - Maxwell

其全新的立体像素全局光照 (VXGI) 技术首次让游戏 GPU 能够提供实时的动态全局光照效果。基于 Maxwell 架构的 GTX 980 和 970 GPU 采用了包括多帧采样抗锯齿 (MFAA)、动态超级分辨率 (DSR)、VR Direct 以及超节能设计在内的一系列新技术。

2016 - Pascal

Pascal 架构将处理器和数据集成在同一个程序包内，以实现更高的计算效率。1080系列、1060系列基于Pascal架构

2017 - Volta

Volta 配备640 个Tensor 核心，每秒可提供超过100 兆次浮点运算(TFLOPS) 的深度学习效能，比前一代的Pascal 架构快5 倍以上。

2018 - Turing

Turing 架构配备了名为 RT Core 的专用光线追踪处理器，能够以高达每秒 10 Giga Rays 的速度对光线和声音在 3D 环境中的传播进行加速计算。Turing 架构将实时光线追踪运算加速至上一代 NVIDIA Pascal™ 架构的 25 倍，并能以高出 CPU 30 多倍的速度进行电影效果的最终帧渲染。2060系列、2080系列显卡也是跳过了Volta直接选择了Turing架构。

下图是部分GPU架构的发展历程：

2.3 GPU的功能

现代GPU除了绘制图形外，还担当了很多额外的功能，综合起来如下几方面：

图形绘制。

这是GPU最传统的拿手好戏，也是最基础、最核心的功能。为大多数PC桌面、移动设备、图形工作站提供图形处理和绘制功能。

物理模拟。

GPU硬件集成的物理引擎（PhysX、Havok），为游戏、电影、教育、科学模拟等领域提供了成百上千倍性能的物理模拟，使得以前需要长时间计算的物理模拟得以实时呈现。

海量计算。

计算着色器及流输出的出现，为各种可以并行计算的海量需求得以实现，CUDA就是最好的例证。

AI运算。

近年来，人工智能的崛起推动了GPU集成了AI Core运算单元，反哺AI运算能力的提升，给各行各业带来了计算能力的提升。

其它计算。

音视频编解码、加解密、科学计算、离线渲染等等都离不开现代GPU的并行计算能力和海量吞吐能力。

三、GPU物理架构 3.1 GPU宏观物理结构

由于纳米工艺的引入，GPU可以将数以亿记的晶体管和电子器件集成在一个小小的芯片内。从宏观物理结构上看，现代大多数桌面级GPU的大小跟数枚硬币同等大小，部分甚至比一枚硬币还小（下图）。

高通骁龙853显示芯片比硬币还小

当GPU结合散热风扇、PCI插槽、HDMI接口等部件之后，就组成了显卡（下图）。

显卡不能独立工作，需要装载在主板上，结合CPU、内存、显存、显示器等硬件设备，组成完整的PC机。

搭载了显卡的主板。

3.2 GPU微观物理结构

GPU的微观结构因不同厂商、不同架构都会有所差异，但核心部件、概念、以及运行机制大同小异。下面将展示部分架构的GPU微观物理结构。

3.2.1 NVidia Tesla架构

Tesla微观架构总览图如上。下面将阐述它的特性和概念：

拥有7组TPC（Texture/Processor Cluster，纹理处理簇）

每个TPC有两组SM（Stream Multiprocessor，流多处理器）

每个SM包含：

6个SP（Streaming Processor，流处理器） 2个SFU（Special Function Unit，特殊函数单元） L1缓存、MT Issue（多线程指令获取）、C-Cache（常量缓存）、共享内存

除了TPC核心单元，还有与显存、CPU、系统内存交互的各种部件。

3.2.2 NVidia Fermi架构

Fermi架构如上图，它的特性如下：

拥有16个SM

每个SM：

2个Warp（线程束）两组共32个Core 16组加载存储单元（LD/ST） 4个特殊函数单元（SFU）

每个Warp：

16个Core Warp编排器（Warp Scheduler）分发单元（Dispatch Unit）

每个Core：

1个FPU（浮点数单元） 1个ALU（逻辑运算单元） 3.2.3 NVidia Maxwell架构

采用了Maxwell的GM204，拥有4个GPC，每个GPC有4个SM，对比Tesla架构来说，在处理单元上有了很大的提升。

3.2.4 NVidia Kepler架构

Kepler除了在硬件有了提升，有了更多处理单元之外，还将SM升级到了SMX。SMX是改进的架构，支持动态创建渲染线程（下图），以降低延迟。

3.2.5 NVidia Turing架构

上图是采纳了Turing架构的TU102 GPU，它的特点如下：

6 GPC（图形处理簇）

36 TPC（纹理处理簇）

72 SM（流多处理器）

每个GPC有6个TPC，每个TPC有2个SM

4,608 CUDA核

72 RT核

576 Tensor核

288 纹理单元

12x32位 GDDR6内存控制器 (共384位)

单个SM的结构图如下：

每个SM包含：

64 CUDA核 8 Tensor核 256 KB寄存器文件

TU102 GPU芯片实物图：

3.3 GPU架构的共性

纵观上一节的所有GPU架构，可以发现它们虽然有所差异，但存在着很多相同的概念和部件：

GPC TPC Thread SM、SMX、SMM Warp SP Core ALU FPU SFU ROP Load/Store Unit L1 Cache L2 Cache Memory Register File

以上各个部件的用途将在下一章详细阐述。

GPU为什么会有这么多层级且有这么多雷同的部件？答案是GPU的任务是天然并行的，现代GPU的架构皆是以高度并行能力而设计的。

四、GPU运行机制 4.1 GPU渲染总览

由上一章可得知，现代GPU有着相似的结构，有很多相同的部件，在运行机制上，也有很多共同点。下面是Fermi架构的运行机制总览图：

从Fermi开始NVIDIA使用类似的原理架构，使用一个Giga Thread Engine来管理所有正在进行的工作，GPU被划分成多个GPCs(Graphics Processing Cluster)，每个GPC拥有多个SM（SMX、SMM）和一个光栅化引擎(Raster Engine)，它们其中有很多的连接，最显著的是Crossbar，它可以连接GPCs和其它功能性模块（例如ROP或其他子系统）。

程序员编写的shader是在SM上完成的。每个SM包含许多为线程执行数学运算的Core（核心）。例如，一个线程可以是顶点或像素着色器调用。这些Core和其它单元由Warp Scheduler驱动，Warp Scheduler管理一组32个线程作为Warp（线程束）并将要执行的指令移交给Dispatch Units。

GPU中实际有多少这些单元（每个GPC有多少个SM，多少个GPC ......）取决于芯片配置本身。例如，GM204有4个GPC，每个GPC有4个SM，但Tegra X1有1个GPC和2个SM，它们均采用Maxwell设计。SM设计本身（内核数量，指令单位，调度程序......）也随着时间的推移而发生变化，并帮助使芯片变得如此高效，可以从高端台式机扩展到笔记本电脑移动。

如上图，对于某些GPU（如Fermi部分型号）的单个SM，包含：

32个运算核心（Core，也叫流处理器Stream Processor）

16个LD/ST（load/store）模块来加载和存储数据

4个SFU（Special function units）执行特殊数学运算（sin、cos、log等）

128KB寄存器（Register File）

64KB L1缓存

全局内存缓存（Uniform Cache）

纹理读取单元

纹理缓存（Texture Cache）

PolyMorph Engine：多边形引擎负责属性装配（attribute Setup）、顶点拉取(VertexFetch)、曲面细分、栅格化（这个模块可以理解专门处理顶点相关的东西）。

2个Warp Schedulers：这个模块负责warp调度，一个warp由32个线程组成，warp调度器的指令通过Dispatch Units送到Core执行。

指令缓存（Instruction Cache）

内部链接网络（Interconnect Network）

4.2 GPU逻辑管线

了解上一节的部件和概念之后，可以深入阐述GPU的渲染过程和步骤。下面将以Fermi家族的SM为例，进行逻辑管线的详细说明。

1、程序通过图形API(DX、GL、WEBGL)发出drawcall指令，指令会被推送到驱动程序，驱动会检查指令的合法性，然后会把指令放到GPU可以读取的Pushbuffer中。

2、经过一段时间或者显式调用flush指令后，驱动程序把Pushbuffer的内容发送给GPU，GPU通过主机接口（Host Interface）接受这些命令，并通过前端（Front End）处理这些命令。

3、在图元分配器(Primitive Distributor)中开始工作分配，处理indexbuffer中的顶点产生三角形分成批次(batches)，然后发送给多个GPCs。这一步的理解就是提交上来n个三角形，分配给这几个PGC同时处理。

4、在GPC中，每个SM中的Poly Morph Engine负责通过三角形索引(triangle indices)取出三角形的数据(vertex data)，即图中的Vertex Fetch模块。

5、在获取数据之后，在SM中以32个线程为一组的线程束(Warp)来调度，来开始处理顶点数据。Warp是典型的单指令多线程（SIMT，SIMD单指令多数据的升级）的实现，也就是32个线程同时执行的指令是一模一样的，只是线程数据不一样，这样的好处就是一个warp只需要一个套逻辑对指令进行解码和执行就可以了，芯片可以做的更小更快，之所以可以这么做是由于GPU需要处理的任务是天然并行的。

6、SM的warp调度器会按照顺序分发指令给整个warp，单个warp中的线程会锁步(lock-step)执行各自的指令，如果线程碰到不激活执行的情况也会被遮掩(be masked out)。被遮掩的原因有很多，例如当前的指令是if(true)的分支，但是当前线程的数据的条件是false，或者循环的次数不一样（比如for循环次数n不是常量，或被break提前终止了但是别的还在走），因此在shader中的分支会显著增加时间消耗，在一个warp中的分支除非32个线程都走到if或者else里面，否则相当于所有的分支都走了一遍，线程不能独立执行指令而是以warp为单位，而这些warp之间才是独立的。

7、warp中的指令可以被一次完成，也可能经过多次调度，例如通常SM中的LD/ST(加载存取)单元数量明显少于基础数学操作单元。

8、由于某些指令比其他指令需要更长的时间才能完成，特别是内存加载，warp调度器可能会简单地切换到另一个没有内存等待的warp，这是GPU如何克服内存读取延迟的关键，只是简单地切换活动线程组。为了使这种切换非常快，调度器管理的所有warp在寄存器文件中都有自己的寄存器。这里就会有个矛盾产生，shader需要越多的寄存器，就会给warp留下越少的空间，就会产生越少的warp，这时候在碰到内存延迟的时候就会只是等待，而没有可以运行的warp可以切换。

9、一旦warp完成了vertex-shader的所有指令，运算结果会被Viewport Transform模块处理，三角形会被裁剪然后准备栅格化，GPU会使用L1和L2缓存来进行vertex-shader和pixel-shader的数据通信。

10、接下来这些三角形将被分割，再分配给多个GPC，三角形的范围决定着它将被分配到哪个光栅引擎(raster engines)，每个raster engines覆盖了多个屏幕上的tile，这等于把三角形的渲染分配到多个tile上面。也就是像素阶段就把按三角形划分变成了按显示的像素划分了。

11、SM上的Attribute Setup保证了从vertex-shader来的数据经过插值后是pixel-shade是可读的。

12、GPC上的光栅引擎(raster engines)在它接收到的三角形上工作，来负责这些这些三角形的像素信息的生成（同时会处理裁剪Clipping、背面剔除和Early-Z剔除）。

13、32个像素线程将被分成一组，或者说8个2x2的像素块，这是在像素着色器上面的最小工作单元，在这个像素线程内，如果没有被三角形覆盖就会被遮掩，SM中的warp调度器会管理像素着色器的任务。

14、接下来的阶段就和vertex-shader中的逻辑步骤完全一样，但是变成了在像素着色器线程中执行。由于不耗费任何性能可以获取一个像素内的值，导致锁步执行非常便利，所有的线程可以保证所有的指令可以在同一点。

15、最后一步，现在像素着色器已经完成了颜色的计算还有深度值的计算，在这个点上，我们必须考虑三角形的原始api顺序，然后才将数据移交给ROP(render output unit，渲染输入单元)，一个ROP内部有很多ROP单元，在ROP单元中处理深度测试，和framebuffer的混合，深度和颜色的设置必须是原子操作，否则两个不同的三角形在同一个像素点就会有冲突和错误。

4.3 GPU技术要点

由于上一节主要阐述GPU内部的工作流程和机制，为了简洁性，省略了很多知识点和过程，本节将对它们做进一步补充说明。

4.3.1 SIMD和SIMT

SIMD（Single Instruction Multiple Data）是单指令多数据，在GPU的ALU单元内，一条指令可以处理多维向量（一般是4D）的数据。比如，有以下shader指令：

float4 c = a + b; // a, b都是float4类型

对于没有SIMD的处理单元，需要4条指令将4个float数值相加，汇编伪代码如下：

ADD c.x, a.x, b.x ADD c.y, a.y, b.y ADD c.z, a.z, b.z ADD c.w, a.w, b.w

但有了SIMD技术，只需一条指令即可处理完：

SIMD_ADD c, a, b

SIMT（Single Instruction Multiple Threads，单指令多线程）是SIMD的升级版，可对GPU中单个SM中的多个Core同时处理同一指令，并且每个Core存取的数据可以是不同的。

SIMT_ADD c, a, b

上述指令会被同时送入在单个SM中被编组的所有Core中，同时执行运算，但a、b 、c的值可以不一样：

4.3.2 co-issue

co-issue是为了解决SIMD运算单元无法充分利用的问题。例如下图，由于float数量的不同，ALU利用率从100%依次下降为75%、50%、25%。

为了解决着色器在低维向量的利用率低的问题，可以通过合并1D与3D或2D与2D的指令。例如下图，DP3指令用了3D数据，ADD指令只有1D数据，co-issue会自动将它们合并，在同一个ALU只需一个指令周期即可执行完。

但是，对于向量运算单元（Vector ALU），如果其中一个变量既是操作数又是存储数的情况，无法启用co-issue技术：

于是标量指令着色器（Scalar Instruction Shader）应运而生，它可以有效地组合任何向量，开启co-issue技术，充分发挥SIMD的优势。

4.3.3 if - else语句

如上图，SM中有8个ALU（Core），由于SIMD的特性，每个ALU的数据不一样，导致if-else语句在某些ALU中执行的是true分支（黄色），有些ALU执行的是false分支（灰蓝色），这样导致很多ALU的执行周期被浪费掉了（即masked out），拉长了整个执行周期。最坏的情况，同一个SM中只有1/8（8是同一个SM的线程数，不同架构的GPU有所不同）的利用率。

同样，for循环也会导致类似的情形，例如以下shader代码：

void func(int count, int breakNum) { for(int i=0; i

【本文地址】

公司简介

联系我们